<!DOCTYPE html>
<html lang=en>
<head>
  <meta charset="utf-8">
  
  <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
  <meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1, minimum-scale=1, user-scalable=no, minimal-ui">
  <meta name="renderer" content="webkit">
  <meta http-equiv="Cache-Control" content="no-transform" />
  <meta http-equiv="Cache-Control" content="no-siteapp" />
  <meta name="apple-mobile-web-app-capable" content="yes">
  <meta name="apple-mobile-web-app-status-bar-style" content="black">
  <meta name="format-detection" content="telephone=no,email=no,adress=no">
  <!-- Color theme for statusbar -->
  <meta name="theme-color" content="#000000" />
  <!-- 强制页面在当前窗口以独立页面显示,防止别人在框架里调用页面 -->
  <meta http-equiv="window-target" content="_top" />
  
  
  <title>初识场景文字识别 | 鲨鱼之家</title>
  <meta name="description" content="初识场景文字识别   什么是场景文字识别 场景文字处理流程 文字检测  简单场景  形态学操作法 MSER+NMS检测法   复杂场景——基于深度学习的场景文字检测  Region Proposals     文字识别  CRNN+CTC Seq2Seq+Attention ACE   一些想法   什么是场景文字识别 场景文字识别(Scene Text Recognition)，简称STR，又可">
<meta property="og:type" content="article">
<meta property="og:title" content="初识场景文字识别">
<meta property="og:url" content="http://tina-yao.gitee.io/bigbig-shark/2021/12/25/%E5%88%9D%E8%AF%86%E5%9C%BA%E6%99%AF%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB/index.html">
<meta property="og:site_name" content="大鲨鱼">
<meta property="og:description" content="初识场景文字识别   什么是场景文字识别 场景文字处理流程 文字检测  简单场景  形态学操作法 MSER+NMS检测法   复杂场景——基于深度学习的场景文字检测  Region Proposals     文字识别  CRNN+CTC Seq2Seq+Attention ACE   一些想法   什么是场景文字识别 场景文字识别(Scene Text Recognition)，简称STR，又可">
<meta property="og:locale" content="en_US">
<meta property="article:published_time" content="2021-12-25T15:01:36.000Z">
<meta property="article:modified_time" content="2022-03-10T02:59:41.706Z">
<meta property="article:author" content="BigbigShark">
<meta property="article:tag" content="场景文字识别">
<meta name="twitter:card" content="summary">
  <!-- Canonical links -->
  <link rel="canonical" href="http://tina-yao.gitee.io/bigbig-shark/2021/12/25/%E5%88%9D%E8%AF%86%E5%9C%BA%E6%99%AF%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB/index.html">
  
    <link rel="alternate" href="/atom.xml" title="大鲨鱼" type="application/atom+xml">
  
  
    <link rel="icon" href="/favicon.png" type="image/x-icon">
  
  
<link rel="stylesheet" href="/bigbig-shark/css/style.css">

  
  
  
  
<meta name="generator" content="Hexo 5.4.0"></head>


<body class="main-center theme-purple# 主题颜色 theme-black theme-blue theme-green theme-purple" itemscope itemtype="http://schema.org/WebPage">
  <header class="header" itemscope itemtype="http://schema.org/WPHeader">
  <div class="slimContent">
    <div class="navbar-header">
      
      
      <div class="profile-block text-center">
        <a id="avatar" href="https://tina-yao.gitee.io/bigbig-shark/" target="_blank">
          <img class="img-circle img-rotate" src="/bigbig-shark/images/avatar.jpg" width="200" height="200">
        </a>
        <h2 id="name" class="hidden-xs hidden-sm">大鲨鱼</h2>
        <h3 id="title" class="hidden-xs hidden-sm hidden-md">CV&amp;Robots</h3>
        <small id="location" class="text-muted hidden-xs hidden-sm"><i class="icon icon-map-marker"></i> Wuhan, China</small>
      </div>
      
      <div class="search" id="search-form-wrap">

    <form class="search-form sidebar-form">
        <div class="input-group">
            <input type="text" class="search-form-input form-control" placeholder="Search" />
            <span class="input-group-btn">
                <button type="submit" class="search-form-submit btn btn-flat" onclick="return false;"><i class="icon icon-search"></i></button>
            </span>
        </div>
    </form>
    <div class="ins-search">
  <div class="ins-search-mask"></div>
  <div class="ins-search-container">
    <div class="ins-input-wrapper">
      <input type="text" class="ins-search-input" placeholder="Type something..." x-webkit-speech />
      <button type="button" class="close ins-close ins-selectable" data-dismiss="modal" aria-label="Close"><span aria-hidden="true">×</span></button>
    </div>
    <div class="ins-section-wrapper">
      <div class="ins-section-container"></div>
    </div>
  </div>
</div>


</div>
      <button class="navbar-toggle collapsed" type="button" data-toggle="collapse" data-target="#main-navbar" aria-controls="main-navbar" aria-expanded="false">
        <span class="sr-only">Toggle navigation</span>
        <span class="icon-bar"></span>
        <span class="icon-bar"></span>
        <span class="icon-bar"></span>
      </button>
    </div>
    <nav id="main-navbar" class="collapse navbar-collapse" itemscope itemtype="http://schema.org/SiteNavigationElement" role="navigation">
      <ul class="nav navbar-nav main-nav menu-highlight">
        
        
        <li class="menu-item menu-item-home">
          <a href="/bigbig-shark/.">
            
            <i class="icon icon-home-fill"></i>
            
            <span class="menu-title">Home</span>
          </a>
        </li>
        
        
        <li class="menu-item menu-item-archives">
          <a href="/bigbig-shark/archives">
            
            <i class="icon icon-archives-fill"></i>
            
            <span class="menu-title">Archives</span>
          </a>
        </li>
        
        
        <li class="menu-item menu-item-categories">
          <a href="/bigbig-shark/categories">
            
            <i class="icon icon-folder"></i>
            
            <span class="menu-title">Categories</span>
          </a>
        </li>
        
        
        <li class="menu-item menu-item-tags">
          <a href="/bigbig-shark/tags">
            
            <i class="icon icon-tags"></i>
            
            <span class="menu-title">Tags</span>
          </a>
        </li>
        
        
        <li class="menu-item menu-item-links">
          <a href="/bigbig-shark/links">
            
            <i class="icon icon-friendship"></i>
            
            <span class="menu-title">Links</span>
          </a>
        </li>
        
        
        <li class="menu-item menu-item-about">
          <a href="/bigbig-shark/about">
            
            <i class="icon icon-cup-fill"></i>
            
            <span class="menu-title">About</span>
          </a>
        </li>
        
      </ul>
      
	
    <ul class="social-links">
    	
        <li><a href="https://gitee.com/tina-yao" target="_blank" title="Gitee" data-toggle=tooltip data-placement=top><i class="icon icon-gitee"></i></a></li>
        
    </ul>

    </nav>
  </div>
</header>

  
    <aside class="sidebar" itemscope itemtype="http://schema.org/WPSideBar">
  <div class="slimContent">
    
      <div class="widget">
    <h3 class="widget-title">Board</h3>
    <div class="widget-body">
        <div id="board">
            <div class="content">
                <p>欢迎交流与分享经验!</p>
            </div>
        </div>
    </div>
</div>

    
      
  <div class="widget">
    <h3 class="widget-title">Categories</h3>
    <div class="widget-body">
      <ul class="category-list"><li class="category-list-item"><a class="category-list-link" href="/bigbig-shark/categories/AI/">AI</a><span class="category-list-count">1</span><ul class="category-list-child"><li class="category-list-item"><a class="category-list-link" href="/bigbig-shark/categories/AI/ML/">ML</a><span class="category-list-count">1</span></li></ul></li><li class="category-list-item"><a class="category-list-link" href="/bigbig-shark/categories/Concepts/">Concepts</a><span class="category-list-count">1</span></li><li class="category-list-item"><a class="category-list-link" href="/bigbig-shark/categories/Robots/">Robots</a><span class="category-list-count">2</span></li><li class="category-list-item"><a class="category-list-link" href="/bigbig-shark/categories/%E5%8D%8A%E6%97%A5%E9%97%B2/">半日闲</a><span class="category-list-count">5</span></li><li class="category-list-item"><a class="category-list-link" href="/bigbig-shark/categories/%E6%95%B0%E5%AD%A6%E5%BB%BA%E6%A8%A1/">数学建模</a><span class="category-list-count">1</span></li><li class="category-list-item"><a class="category-list-link" href="/bigbig-shark/categories/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/">数据分析</a><span class="category-list-count">1</span></li><li class="category-list-item"><a class="category-list-link" href="/bigbig-shark/categories/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/">计算机视觉</a><span class="category-list-count">30</span></li></ul>
    </div>
  </div>


    
      
  <div class="widget">
    <h3 class="widget-title">Tag Cloud</h3>
    <div class="widget-body tagcloud">
      <a href="/bigbig-shark/tags/CNN-backbones/" style="font-size: 13.67px;">CNN_backbones</a> <a href="/bigbig-shark/tags/OpenCV/" style="font-size: 13px;">OpenCV</a> <a href="/bigbig-shark/tags/Python/" style="font-size: 13px;">Python</a> <a href="/bigbig-shark/tags/ROS/" style="font-size: 13px;">ROS</a> <a href="/bigbig-shark/tags/%E4%BB%A3%E7%A0%81/" style="font-size: 13px;">代码</a> <a href="/bigbig-shark/tags/%E5%85%83%E5%AE%87%E5%AE%99/" style="font-size: 13px;">元宇宙</a> <a href="/bigbig-shark/tags/%E5%85%B4%E8%B6%A3/" style="font-size: 13px;">兴趣</a> <a href="/bigbig-shark/tags/%E5%9C%BA%E6%99%AF%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB/" style="font-size: 13px;">场景文字识别</a> <a href="/bigbig-shark/tags/%E6%91%98%E6%8A%84/" style="font-size: 13.33px;">摘抄</a> <a href="/bigbig-shark/tags/%E6%95%B0%E6%8D%AE%E9%9B%86/" style="font-size: 13px;">数据集</a> <a href="/bigbig-shark/tags/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B/" style="font-size: 14px;">目标检测</a> <a href="/bigbig-shark/tags/%E7%BE%8E%E8%B5%9B/" style="font-size: 13px;">美赛</a> <a href="/bigbig-shark/tags/%E8%81%9A%E7%B1%BB/" style="font-size: 13px;">聚类</a> <a href="/bigbig-shark/tags/%E8%87%AA%E5%8A%A8%E9%A9%BE%E9%A9%B6/" style="font-size: 13.33px;">自动驾驶</a> <a href="/bigbig-shark/tags/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%893D/" style="font-size: 13px;">计算机视觉3D</a> <a href="/bigbig-shark/tags/%E8%BD%BB%E9%87%8F%E7%BA%A7/" style="font-size: 13px;">轻量级</a>
    </div>
  </div>

    
  </div>
</aside>

  
  
<main class="main" role="main">
  <div class="content">
  <article id="post-初识场景文字识别" class="article article-type-post" itemscope itemtype="http://schema.org/BlogPosting">
    
    <div class="article-header">
      
        
  
    <h1 class="article-title" itemprop="name">
      初识场景文字识别
    </h1>
  

      
      <div class="article-meta">
        <span class="article-date">
    <i class="icon icon-calendar-check"></i>
	<a href="/bigbig-shark/2021/12/25/%E5%88%9D%E8%AF%86%E5%9C%BA%E6%99%AF%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB/" class="article-date">
	  <time datetime="2021-12-25T15:01:36.000Z" itemprop="datePublished">2021-12-25</time>
	</a>
</span>
        
  <span class="article-category">
    <i class="icon icon-folder"></i>
    <a class="article-category-link" href="/bigbig-shark/categories/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/">计算机视觉</a>
  </span>

        
  <span class="article-tag">
    <i class="icon icon-tags"></i>
	<a class="article-tag-link-link" href="/bigbig-shark/tags/%E5%9C%BA%E6%99%AF%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB/" rel="tag">场景文字识别</a>
  </span>


        

	<span class="article-read hidden-xs">
    	<i class="icon icon-eye-fill" aria-hidden="true"></i>
    	<span id="/bigbig-shark/2021/12/25/%E5%88%9D%E8%AF%86%E5%9C%BA%E6%99%AF%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB/" class="leancloud_visitors"  data-flag-title="初识场景文字识别">
			<span class="leancloud-visitors-count">0</span>
		</span>
    </span>

        <span class="post-comment"><i class="icon icon-comment"></i> <a href="/bigbig-shark/2021/12/25/%E5%88%9D%E8%AF%86%E5%9C%BA%E6%99%AF%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB/#comments" class="article-comment-link">Comments</a></span>
        
	
		<span class="post-wordcount hidden-xs" itemprop="wordCount">Word Count: 2.6k(words)</span>
	
	
		<span class="post-readcount hidden-xs" itemprop="timeRequired">Read Count: 9(minutes)</span>
	

      </div>
    </div>
    <div class="article-entry marked-body" itemprop="articleBody">
      
        <h1><span id="初识场景文字识别">初识场景文字识别</span></h1>
<!-- toc -->
<ul>
<li><a href="#%E4%BB%80%E4%B9%88%E6%98%AF%E5%9C%BA%E6%99%AF%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB">什么是场景文字识别</a></li>
<li><a href="#%E5%9C%BA%E6%99%AF%E6%96%87%E5%AD%97%E5%A4%84%E7%90%86%E6%B5%81%E7%A8%8B">场景文字处理流程</a></li>
<li><a href="#%E6%96%87%E5%AD%97%E6%A3%80%E6%B5%8B">文字检测</a>
<ul>
<li><a href="#%E7%AE%80%E5%8D%95%E5%9C%BA%E6%99%AF">简单场景</a>
<ul>
<li><a href="#%E5%BD%A2%E6%80%81%E5%AD%A6%E6%93%8D%E4%BD%9C%E6%B3%95">形态学操作法</a></li>
<li><a href="#msernms%E6%A3%80%E6%B5%8B%E6%B3%95">MSER+NMS检测法</a></li>
</ul>
</li>
<li><a href="#%E5%A4%8D%E6%9D%82%E5%9C%BA%E6%99%AF%E5%9F%BA%E4%BA%8E%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%9A%84%E5%9C%BA%E6%99%AF%E6%96%87%E5%AD%97%E6%A3%80%E6%B5%8B">复杂场景——基于深度学习的场景文字检测</a>
<ul>
<li><a href="#region-proposals">Region Proposals</a></li>
</ul>
</li>
</ul>
</li>
<li><a href="#%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB">文字识别</a>
<ul>
<li><a href="#crnnctc">CRNN+CTC</a></li>
<li><a href="#seq2seqattention">Seq2Seq+Attention</a></li>
<li><a href="#ace">ACE</a></li>
</ul>
</li>
<li><a href="#%E4%B8%80%E4%BA%9B%E6%83%B3%E6%B3%95">一些想法</a></li>
</ul>
<!-- tocstop -->
<h2><span id="什么是场景文字识别">什么是场景文字识别</span></h2>
<p>场景文字识别(Scene Text Recognition)，简称STR，又可以称自然场景文字识别，是指对自然场景的照片或视频进行分析并识别出其中的文字信息。与传统光学字符识别不同的是，自然场景文字识别面向的图片背景更为复杂、分辨率更为低下、字体类型更为多样、分布更为随意、噪音更为严重，比如说街边的广告牌和海报等，自然地，实现难度也更大。</p>
<h2><span id="场景文字处理流程">场景文字处理流程</span></h2>
<p>自然场景文字的处理流程主要包括文字检测与文字识别。</p>
<ul>
<li>
<p><strong>文字检测</strong>：首先从原始图像中对文字区域进行检测和定位，即找到单词或文本行的边界框，将文字区域从原始图像中分离出来。</p>
</li>
<li>
<p><strong>文字识别</strong>：然后对分离出来的文字区域进行文字识别。</p>
<ol>
<li>
<p>首先对分离出来的文字区域进行<strong>预处理</strong>，包括去噪(滤波算法)、图像增强、缩放等，目的是去除背景或者噪点，突出文字部分，把图片缩放为合适的大小，以方便处理。</p>
</li>
<li>
<p>然后对预处理后的文字区域图像进行<strong>特征提取</strong>，转化为特征序列，常用的特征包括边缘特征、笔画特征、结构特征等。</p>
</li>
<li>
<p>接下来将提取出的特征输入到<strong>识别器</strong>中，常用的识别器包括分类器、随机森林、SVM、神经网络</p>
</li>
<li>
<p>最后结合词典等语言信息库进行<strong>后处理</strong>，得到最终的识别结果。</p>
</li>
</ol>
</li>
</ul>
<h2><span id="文字检测">文字检测</span></h2>
<h3><span id="简单场景">简单场景</span></h3>
<p>对于简单场景的文字识别，可以使用<strong>形态学操作法</strong>或者<strong>MSER+NMS检测法</strong>。</p>
<h4><span id="形态学操作法">形态学操作法</span></h4>
<p>通过利用计算机视觉中的图像形态学操作，对原始图像中的文字区域进行检测和定位。主要步骤如下：</p>
<ol>
<li>读取原始图像，并将其转化为灰度图；</li>
<li>降噪，利用Sobel边缘检测生成二值图；</li>
<li>对图片进行二值化；</li>
<li>多次进行膨胀、腐蚀操作，突出文字区域轮廓，去掉细节；</li>
<li>查找轮廓，筛选文字区域；</li>
<li>输出文本框坐标。</li>
</ol>
<p>通过以上步骤，可以将简单场景的文字区域成功定位，但对于复杂场景，形态学操作法的效果会大打折扣甚至是直接失效。</p>
<h4><span id="msernms检测法">MSER+NMS检测法</span></h4>
<p>MSER即最大稳定极值区域(Maximally Stable Extremal Regions) ，是一种基于<strong>分水岭原理</strong>对图像进行二值化的方法。二值化阈值从0开始，依次取到255，此时二值化图像就会经历一个从全黑到全白的过程，就像在俯瞰一个水位不断上升的过程，其中会有一些<strong>连通区域的面积随阈值上升的变化很小甚至保持不变</strong>，这种区域就叫做最大稳定值区域。而对于文字区域，其灰度值一致或者相似，在阈值持续增长的过程中，除非文字被“淹没”，其面积就基本保持不变，满足上述原理，所以场景文字检测也可以采用MSER方法来进行文字区域的检测和定位。</p>
<p>但是仅仅使用MSER方法检测出来的文字框除了文字的最小外边框外，还会有其他多余的框，比如说文字区域的非文字部分或者是一个文字被拆分成多个部分从而形成多余的框。这个时候就可以结合非极大值抑制(Non Maximum Suppression, 简称为NMS)方法，来<strong>抑制并去掉多余的框</strong>，从而保留最优的框。</p>
<p>抑制的过程其实是一个迭代遍历再消除的过程，其主要步骤如下：</p>
<ol>
<li>将所有框的得分(比如说置信度)进行排序，选中最高分及其对应的框；</li>
<li>遍历其余的框，如果和当前最高分框的重叠面积大于一定阈值，就将这个框删除；</li>
<li>继续从未处理的框中选取一个得分最高的，重复上述过程，直到得到最后的结果。</li>
</ol>
<p>通过MSER和NMS方法的结合，可以更好更快速地检测出一些场景的文字，但是MSER的原理也注定了它的局限性。因为在更为复杂的自然场景中，<strong>连通区域不仅仅包含文字区域</strong>，这样就会将一些非文字区域也检测出来，从而难以达到预想的效果。</p>
<h3><span id="复杂场景基于深度学习的场景文字检测">复杂场景——基于深度学习的场景文字检测</span></h3>
<p>场景文字识别，既包括了计算机视觉领域的知识，又包括了自然语言处理领域的知识，可以说是一个学科交叉点。其中，在场景文字检测中使用得较为为广泛的方法有CPTN、解决旋转倾斜文本的SegLink和EAST，以及解决扭曲文本的DBNet等。接下来直接讲一下一个使用较为广泛的方法——候选区域(CPTN就是基于候选区域的一种深度学习算法)。</p>
<h4><span id="region-proposals">Region Proposals</span></h4>
<p>Region Proposals即候选区域，是一种目标检测的方法，我们可以直观地将Region Proposals理解成文字框，这其实也是我们在场景文字检测时想要实现的一个目标。通俗地说，Region Proposals先从图像中提取多个方方正正的候选区域，然后判断每一个区域中是否有物体、是什么样的物体，最后再根据判断结果对所选区域进行筛选和缩放，形成最终的文字区域。其大致步骤主要如下：</p>
<ol>
<li>一般利用Selective Search方法在图像中提取大小不一的数个候选区域；</li>
<li>将所有候选区域进行缩放成相同的固定大小，保证可以将其输入到特征提取网络中，输出特征向量；</li>
<li>利用得带的特征向量训练分类器，例如支持向量机；</li>
<li>利用回归等方式对文字框位置进行修改，保证结果更加准确。</li>
</ol>
<h2><span id="文字识别">文字识别</span></h2>
<p>文字识别就是将输入的文字图片解码成文字进行输出，因为主流方法基本上都是采用检测+识别两步走的方式实现，导致输入输出是不对齐的，必须解决不定长文本行的识别，所以文字识别的一个核心问题就是<strong>OCR解码算法</strong>。所以主要有三种方法：</p>
<ol>
<li>CNN+RNN+CTC</li>
<li>CNN+RNN+Attention</li>
<li>CNN+RNN+ACE</li>
</ol>
<p>可以看出，以上三种方法都可以使用CNN+RNN作为特征提取器，使用得比较多的有CRNN。</p>
<h3><span id="crnnctc">CRNN+CTC</span></h3>
<p>CRNN由CNN和深层双向LSTM构成，将CRNN作为特征提取器，其后可以接CTC。CTC(Connectionist Temporal Classification)是一种避开输入与输出手动对齐的方式，是最为经典的OCR解码算法。在CRNN中，它实际上就是模型对应的损失函数。该算法能解决1-D的序列识别问题，基于CTC中的前向后向递推迭代计算方式，可以很有效率地完成长文本识别任务。</p>
<h3><span id="seq2seqattention">Seq2Seq+Attention</span></h3>
<p>基于Attention的OCR解码算法，将OCR文字识别当成文字翻译任务，即通过Attention解码出文字序列。而从形式上看，可以将Attention Decoder很自然地替换成Transformer。</p>
<h3><span id="ace">ACE</span></h3>
<p>ACE实际上也是模型对应的损失函数，全称为Aggregation Cross-Entropy，即聚合交叉熵，先聚合次数，再进行交叉熵。其时间复杂度和空间复杂度都优于CTC，支持2-D序列的预测，很好地克服了梯度消失的问题。但ACE本质上是一种对于序列问题求解的弱监督，输入输出没有做形式上的对齐，没有先后顺序信息，倾向于学习表征，通过序列中字符的出现次数来进行监督，所以可能会产生收敛困难的问题，应该考虑和其他OCR解码方法一起训练从而得到更好的效果。</p>
<h2><span id="一些想法">一些想法</span></h2>
<ol>
<li>是否可以通过已经检测和识别的文字来预测同一幅图像中的其他文字，设想有一幅原始图像——某个商场中的公共卫生间，男女卫生间标志文字左右对称，左边的文字比较清晰，识别结果为“Women”，是否可以通过自然场景的对称结构或者自然语言语义的相伴出现来推测右边模糊不清的文字为“men”。因为对于人类来说，即使右边的文字完全看不清，但人类可以通过判断左边的文字将两边的文字都识别出来，即将环境和上下文语义作为进一步的辅助，从而提高场景文字识别的准确率。</li>
<li>在深度学习中，模型往往需要学习大量样本才能胜任相似环境下的场景文字识别，但是一方面并不是所有场景都可以提供大量的学习数据，另一方面，样本是不可能覆盖完世界上的所有场景的，所以我认为实现少量样本甚至是无样本的场景文字识别并可以在绝大多数场景下通用的场景文字识别是一个很值得期待的点，也是一个难点。</li>
<li>我们发现以上算法都是将文字检测和文字识别分开进行的，从而使不定长文本的识别成为一个难题，所以是否可以将文字检测和文字识别放在一个网络中一次性解决文字检测和文字识别。</li>
<li>同样的算法在CPU和GPU上能行，而一般手机的CPU算力难以媲美，如何高效地应用到小型移动设备下。</li>
</ol>

      
    </div>
    <div class="article-footer">
      <blockquote class="mt-2x">
  <ul class="post-copyright list-unstyled">
    
    <li class="post-copyright-link hidden-xs">
      <strong>本文链接：</strong>
      <a href="http://tina-yao.gitee.io/bigbig-shark/2021/12/25/%E5%88%9D%E8%AF%86%E5%9C%BA%E6%99%AF%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB/" title="初识场景文字识别" target="_blank" rel="external">http://tina-yao.gitee.io/bigbig-shark/2021/12/25/初识场景文字识别/</a>
    </li>
    
    <li class="post-copyright-license">
      <strong>版权声明： </strong> 本博客所有文章除特别声明外，均采用 <a href="http://creativecommons.org/licenses/by/4.0/deed.zh" target="_blank" rel="external">CC BY 4.0 CN协议</a> 许可协议。转载请注明出处！
    </li>
  </ul>
</blockquote>


<div class="panel panel-default panel-badger">
  <div class="panel-body">
    <figure class="media">
      <div class="media-left">
        <a href="https://tina-yao.gitee.io/bigbig-shark/" target="_blank" class="img-burn thumb-sm visible-lg">
          <img src="/bigbig-shark/images/avatar.jpg" class="img-rounded w-full" alt="">
        </a>
      </div>
      <div class="media-body">
        <h3 class="media-heading"><a href="https://tina-yao.gitee.io/bigbig-shark/" target="_blank"><span class="text-dark">大鲨鱼</span><small class="ml-1x">CV&amp;Robots</small></a></h3>
        <div>格物致知，诚意力行。</div>
      </div>
    </figure>
  </div>
</div>


    </div>
  </article>
  
    
  <section id="comments">
  	
      <div id="vcomments"></div>
    
  </section>


  
</div>

  <nav class="bar bar-footer clearfix" data-stick-bottom>
  <div class="bar-inner">
  
  <ul class="pager pull-left">
    
    <li class="prev">
      <a href="/bigbig-shark/2022/01/05/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0-%E6%B8%A9%E6%95%85%E7%AF%87/" title="数据分析学习笔记（温故篇）"><i class="icon icon-angle-left" aria-hidden="true"></i><span>&nbsp;&nbsp;Newer</span></a>
    </li>
    
    
    <li class="next">
      <a href="/bigbig-shark/2021/12/06/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E4%B8%8E%E8%87%AA%E5%8A%A8%E9%A9%BE%E9%A9%B6/" title="人工智能与自动驾驶"><span>Older&nbsp;&nbsp;</span><i class="icon icon-angle-right" aria-hidden="true"></i></a>
    </li>
    
    
  </ul>
  
  
  <!-- Button trigger modal -->
  <button type="button" class="btn btn-fancy btn-donate pop-onhover bg-gradient-warning" data-toggle="modal" data-target="#donateModal"><span>$</span></button>
  <!-- <div class="wave-icon wave-icon-danger btn-donate" data-toggle="modal" data-target="#donateModal">
    <div class="wave-circle"><span class="icon"><i class="icon icon-bill"></i></span></div>
  </div> -->
  
  
  <div class="bar-right">
    
    <div class="share-component" data-sites="weibo,qq,wechat" data-mobile-sites="weibo,qq"></div>
    
  </div>
  </div>
</nav>
  
<!-- Modal -->
<div class="modal modal-center modal-small modal-xs-full fade" id="donateModal" tabindex="-1" role="dialog">
  <div class="modal-dialog" role="document">
    <div class="modal-content donate">
      <button type="button" class="close" data-dismiss="modal" aria-label="Close"><span aria-hidden="true">&times;</span></button>
      <div class="modal-body">
        <div class="donate-box">
          <div class="donate-head">
            <p>Maybe you could buy me a cup of coffee.</p>
          </div>
          <div class="tab-content">
            <div role="tabpanel" class="tab-pane fade active in" id="alipay">
              <div class="donate-payimg">
                <img src="https://gitee.com/tina-yao/bigbig-shark/raw/master/images/donate/alipayimg.PNG#images/donate/alipayimg.png" alt="Scan Qrcode" title="Scan" />
              </div>
              <p class="text-muted mv">Scan this qrcode</p>
              <p class="text-grey">Open alipay app scan this qrcode, buy me a coffee!</p>
            </div>
            <div role="tabpanel" class="tab-pane fade" id="wechatpay">
              <div class="donate-payimg">
                <img src="https://gitee.com/tina-yao/bigbig-shark/raw/master/images/donate/wechatpayimg.PNG#images/donate/wechatpayimg.png" alt="Scan Qrcode" title="Scan" />
              </div>
              <p class="text-muted mv">Scan this qrcode</p>
              <p class="text-grey">Open wechat app scan this qrcode, buy me a coffee!</p>
            </div>
          </div>
          <div class="donate-footer">
            <ul class="nav nav-tabs nav-justified" role="tablist">
              <li role="presentation" class="active">
                <a href="#alipay" id="alipay-tab" role="tab" data-toggle="tab" aria-controls="alipay" aria-expanded="true"><i class="icon icon-alipay"></i> alipay</a>
              </li>
              <li role="presentation" class="">
                <a href="#wechatpay" role="tab" id="wechatpay-tab" data-toggle="tab" aria-controls="wechatpay" aria-expanded="false"><i class="icon icon-wepay"></i> wechat payment</a>
              </li>
            </ul>
          </div>
        </div>
      </div>
    </div>
  </div>
</div>



</main>

  <footer class="footer" itemscope itemtype="http://schema.org/WPFooter">
	
	
    <ul class="social-links">
    	
        <li><a href="https://gitee.com/tina-yao" target="_blank" title="Gitee" data-toggle=tooltip data-placement=top><i class="icon icon-gitee"></i></a></li>
        
    </ul>

    <div class="copyright">
    	
        &copy; 2023 BigbigShark
        
        <div class="publishby">
        <!--
        	Theme by <a href="https://github.com/cofess" target="_blank"> cofess </a>base on <a href="https://github.com/cofess/hexo-theme-pure" target="_blank">pure</a>.
        -->
        </div>
    </div>
</footer>
  <script src="//cdn.jsdelivr.net/npm/jquery@1.12.4/dist/jquery.min.js"></script>
<script>
window.jQuery || document.write('<script src="js/jquery.min.js"><\/script>')
</script>

<script src="/bigbig-shark/js/plugin.min.js"></script>


<script src="/bigbig-shark/js/application.js"></script>


    <script>
(function (window) {
    var INSIGHT_CONFIG = {
        TRANSLATION: {
            POSTS: 'Posts',
            PAGES: 'Pages',
            CATEGORIES: 'Categories',
            TAGS: 'Tags',
            UNTITLED: '(Untitled)',
        },
        ROOT_URL: '/bigbig-shark/',
        CONTENT_URL: '/bigbig-shark/content.json',
    };
    window.INSIGHT_CONFIG = INSIGHT_CONFIG;
})(window);
</script>

<script src="/bigbig-shark/js/insight.js"></script>






   




   
    
  <script src="//cdn1.lncld.net/static/js/3.0.4/av-min.js"></script>
  <script src="//cdn.jsdelivr.net/npm/valine"></script>
  <script type="text/javascript">
  var GUEST = ['nick', 'mail', 'link'];
  var meta = 'nick,mail,link';
  meta = meta.split(',').filter(function(item) {
    return GUEST.indexOf(item) > -1;
  });
  new Valine({
    el: '#vcomments',
    verify: false,
    notify: false,
    appId: '8pTCCvyyLGXskH0XW0fWHg7l-gzGzoHsz',
    appKey: 'id3rlCPRdbEoSpUfhJgcLhDO',
    placeholder: 'Just go go',
    avatar: 'mm',
    meta: meta,
    pageSize: '10' || 10,
    visitor: true
  });
  </script>

     







<script src="/bigbig-shark/live2dw/lib/L2Dwidget.min.js?094cbace49a39548bed64abff5988b05"></script><script>L2Dwidget.init({"pluginModelPath":"assets/","model":{"jsonPath":"/bigbig-shark/live2dw/assets/tororo.model.json"},"display":{"position":null,"width":300,"height":600},"log":false,"pluginJsPath":"lib/","pluginRootPath":"live2dw/","tagMode":false});</script></body>
</html>